Table des matières

I. Données
II. Plan d’analyse
III. Exploration

Introduction

La National Basketball Association (NBA) est la principale ligue de basket-ball au monde, crée le 6 juin 1946 sous le nom de BAA(Basketball Association of America), la ligue est renomée en NBA en 1949 après sa fusion avec la NBL (National Basketball League). Connaissant un franc succès et un engouement sans précédent, la NBA enchaine plus de 77 éditions. Le championnat comprend 29 franchises américaines et une canadienne, réparties en deux conférences (Est et Ouest).Après une saison régulière débutant en octobre et comprenant 82 matchs, les 8 meilleures équipes de chaque conférence s’affrontent en séries éliminatoires (playoffs).Les finales voient s’opposer la meilleure équipe de chaque conférence Est contre celle de la conférence Ouest. L’équipe qui parvient à remporter 4 match en premier est championne de NBA.

Nous avons choisi un dataset sur la NBA puisque nous aimons tous le basket comme sport et la NBA est la compétition la plus prédominante et la plus importante de ce sport. Ayant des connaissances hétérogènes sur le basket au sein de notre groupe ainsi l’étude de ce dataset nous permettra d’approfondir nos connaissances et de mieux comprendre l’évolution de ce sport au fils des années.

Le jeu de données “NBA Stats(1947 - Present)” contient les données des 77 éditions de NBA réparties sur 21 fichiers au format CSV. Parmi ces 21 fichiers, on retrouve deux catégories : les fichiers cotés joueurs et les fichiers cotés équipes. Pour les fichiers cotés joueurs, on compte en moyenne une trentaine de variables comme la saison, l’identifiant du joueur, son âge, son expérience … tandis que les fichiers cotés équipes une vingtaine de variables tels que la saison, le nom de l’équipe, les séries éliminatoires … Les données proviennent du site Basketball-Reference connu pour être le plus grand site complet de statistique de basket crée par Justin Kubatko, mathématicien et statisticien fan de basket qui a développé son site comme passe-temps. En effet, ce site contient toutes les informations sur les statistiques, les scores et l’histoire de toutes les ligues de basket du monde entier.

Le jeu de données est disponible sur Cette page Kaggle et a été publié par [Sumitro Datta], un data management consultant chez Pacific Lif Re.

I. Données

Notre dataset est composé de 21 fichiers et de 499 colonnes montrant l’évolution de la NBA au fil de l’histoire. Comme nous l’avons mentionné auparavant nous avons deux types de fichiers : d’une part les fichiers cotés joueurs donnant une description du joueur et ses statistiques au sein de la saison et d’autre part nous avons les fichiers cotés équipes contenant les informations sur l’avancement de l’équipe. Il n’y a pas de catégories ou des sous-groupes au sein de notre dataset.

Pour faciliter l’exploration et l’utilisation de ce dataset, chaque joueur possède un identifiant unique par joueur afin de faciliter l’aggrégation des différents fichiers présents.

Advance.csv

Nombre d’observations : 31136

Attribut Explication Type Format Type de données
seas_id Identifiant de saison Texte String Nominal
season Saison Texte String Nominal
player_id Identifiant du joueur Texte String Nominal
player Joueur Texte String Nominal
birth_year Année de naissance Numérique YYYY Ordinale
pos Position Texte String Nominal
age Âge Numérique Integer Continu
experience Expérience Numérique Integer Discret
lg Ligue Texte String Nominal
tm Équipe Texte String Nominal
g Nombre de matchs joués Numérique Integer Discret
mp Minutes jouées Numérique Integer Continu
per Efficacité du joueur Numérique Integer Continu
ts_percent Pourcentage de tirs réels Numérique Pourcentage Continu
x3p_ar Ratio de tentatives de 3 points par tir Numérique Pourcentage Continu
f_tr Ratio de lancers francs par tir Numérique Pourcentage Continu
orb_percent Pourcentage de rebonds offensifs Numérique Pourcentage Continu
drb_percent Pourcentage de rebonds défensifs Numérique Pourcentage Continu
trb_percent Pourcentage de rebonds totaux Numérique Pourcentage Continu
ast_percent Pourcentage de passes décisives Numérique Pourcentage Continu
stl_percent Pourcentage d’interceptions Numérique Pourcentage Continu
blk_percent Pourcentage de contres Numérique Pourcentage Continu
tov_percent Pourcentage de pertes de balle Numérique Pourcentage Continu
usg_percent Pourcentage d’utilisation Numérique Pourcentage Continu
ows Victoires offensives Numérique Integer Continu
dws Victoires défensives Numérique Integer Continu
ws Victoires totales Numérique Integer Continu
ws_48 Victoires par 48 minutes Numérique Integer Continu
obpm Points marqués offensifs par 100 possessions Numérique Integer Continu
dbpm Points marqués défensifs par 100 possessions Numérique Integer Continu
bpm Points marqués par 100 possessions Numérique Integer Continu
vorp Valeur de remplacement au-dessus du seuil Numérique Integer Continu
Label Étiquette Texte String Nominal
Count Compte Texte Integer Discret
All Star selections.csv

Nombre d’observations : 524

Attribut Explication Type Format Type de données
player Nom du joueur Texte String Nominal
team Équipe du joueur Texte String Nominal
lg Ligue du joueur Texte String Nominal
season Saison de sélection Texte String Nominal
replaced Remplacé ou non Booléen N/A Nominal
End of Season Teams (Voting).csv

Nombre d’observations : 4824

Attribut Explication Type Format Type de données
season Saison de l’attribution du prix Texte YYYY Ordinal
lg Ligue concernée par l’attribution Texte String Nominal
type Type de récompense Texte String Nominal
number_tm Nombre d’équipes sélectionnées Numérique Integer Discret
position Position dans l’équipe sélectionnée Texte String Nominal
player Nom du joueur Texte String Nominal
age Âge du joueur Numérique Integer Continu
tm Équipe du joueur Texte String Nominal
pts_won Points remportés Numérique Integer Continu
pts_max Points maximum Numérique Integer Continu
share Part de points remportés Numérique Pourcentage Continu
x1st_tm Nombre de premières sélections Numérique Integer Discret
x2nd_tm Nombre de deuxièmes sélections Numérique Integer Discret
x3rd_tm Nombre de troisièmes sélections Numérique Integer Discret
seas_id Identifiant de la saison Numérique YYYY Ordinal
player_id Identifiant du joueur Numérique N/A Nominal
End of Season Teams.csv

Nombre d’observations : 30400

Attribut Explication Type Format Type de données
season Saison de l’attribution du prix Texte YYYY Ordinal
lg Ligue concernée par l’attribution Texte String Nominal
type Type de récompense Texte String Nominal
number_tm Nombre d’équipes sélectionnées Numérique Integer Discret
player Nom du joueur Texte String Nominal
position Position dans l’équipe sélectionnée Texte String Nominal
seas_id Identifiant de la saison Numérique N/A Nominal
player_id Identifiant du joueur Numérique N/A Nominal
birth_year Année de naissance du joueur Texte YYYY Ordinal
tm Équipe du joueur Texte String Nominal
age Âge du joueur Numérique Integer Continu
Opponent Stats Per Game.csv

Nombre d’observations : 31136

Attribut Explication Type Format Type de données
season Saison Texte YYYY Ordinal
lg Ligue Texte String Nominal
team Équipe Texte String Nominal
abbreviation Abréviation de l’équipe Texte String Nominal
playoffs Participation aux playoffs Booléen N/A Nominal
g Nombre de matchs joués Numérique Integer Continu
mp_per_game Minutes jouées par match Numérique Integer Continu
opp_fg_per_game Paniers adverses réussis par match Numérique Integer Continu
opp_fga_per_game Tentatives de paniers adverses par match Numérique Integer Continu
opp_fg_percent Pourcentage de réussite des paniers adverses Numérique Percentage Continu
opp_x3p_per_game Paniers à 3 points adverses réussis par match Numérique Integer Continu
opp_x3pa_per_game Tentatives de paniers à 3 points adverses par match Numérique Integer Continu
opp_x3p_percent Pourcentage de réussite des paniers à 3 points adverses Numérique Percentage Continu
opp_x2p_per_game Paniers à 2 points adverses réussis par match Numérique Integer Continu
opp_x2pa_per_game Tentatives de paniers à 2 points adverses par match Numérique Integer Continu
opp_x2p_percent Pourcentage de réussite des paniers à 2 points adverses Numérique Percentage Continu
opp_ft_per_game Lancers francs adverses réussis par match Numérique Integer Continu
opp_fta_per_game Tentatives de lancers francs adverses par match Numérique Integer Continu
opp_ft_percent Pourcentage de réussite des lancers francs adverses Numérique Percentage Continu
opp_orb_per_game Rebonds offensifs adverses par match Numérique Integer Continu
opp_drb_per_game Rebonds défensifs adverses par match Numérique Integer Continu
opp_trb_per_game Rebonds totaux adverses par match Numérique Integer Continu
opp_ast_per_game Passes décisives adverses par match Numérique Integer Continu
opp_stl_per_game Interceptions adverses par match Numérique Integer Continu
opp_blk_per_game Contres adverses par match Numérique Integer Continu
opp_tov_per_game Pertes de balle adverses par match Numérique Integer Continu
opp_pf_per_game Fautes personnelles adverses par match Numérique Integer Continu
opp_pts_per_game Points adverses par match Numérique Integer Continu
Opponent Totals.csv

Nombre d’observations : 31136

Attribut Explication Type Format Type de données
season Saison Numérique YYYY Continu
lg Ligue Texte String Nominal
team Équipe Texte String Nominal
abbreviation Abréviation de l’équipe Texte String Nominal
playoffs Participation aux playoffs Booléen TRUE / FALSE Nominal
g Nombre de matchs joués Numérique Integer Continu
mp_per_game Minutes jouées par match Numérique Integer Continu
opp_fg Total des paniers adverses réussis Numérique Integer Continu
opp_fga Total des Tentatives de paniers adverses Numérique Integer Continu
opp_fg_percent Pourcentage de réussite des paniers adverses Numérique Percentage Continu
opp_x3p Total des paniers à 3 points adverses réussis Numérique Integer Continu
opp_x3pa Total de paniers à 3 points adverses tentés Numérique Integer Continu
opp_x3p_percent Pourcentage de réussite des paniers à 3 points adverses Numérique Percentage Continu
opp_x2p Total des paniers à 2 points adverses réussis Numérique Integer Continu
opp_x2pa Total des paniers à 2 points adverses tentés Numérique Integer Continu
opp_x2p_percent Pourcentage de réussite des paniers à 2 points adverses Numérique Percentage Continu
opp_ft Total des lancers francs adverses réussis Numérique Integer Continu
opp_fta Total des lancers francs adverses tentés Numérique Integer Continu
opp_ft_percent Pourcentage de réussite des lancers francs adverses Numérique Percentage Continu
opp_orb Total des rebonds offensifs adverses Numérique Integer Continu
opp_drb Total des rebonds défensifs adverses Numérique Integer Continu
opp_trb Total des rebonds adverses Numérique Integer Continu
opp_ast Total des passes décisives adverses Numérique Integer Continu
opp_stl Total des interceptions adverses Numérique Integer Continu
opp_blk Total des contres adverses Numérique Integer Continu
opp_tov Total des pertes de balle adverses Numérique Integer Continu
opp_pf Total des fautes personnelles adverses Numérique Integer Continu
opp_pts Total des points adverses Numérique Integer Continu
Opponent Stats per 100 poss.csv

Nombre d’observations : 31136

Attribut Explication Type Format Type de données
season Saison Numérique YYYY Continu
lg Ligue Texte String Nominal
team Équipe Texte String Nominal
abbreviation Abréviation de l’équipe Texte String Nominal
playoffs Participation aux playoffs Booléen TRUE / FALSE Nominal
g Nombre de matchs joués Numérique Integer Continu
mp Minutes jouées Numérique Integer Continu
opp_fg_per_100_poss Paniers adverses réussis par 100 possessions Numérique Float Continu
opp_fga_per_100_poss Tentatives de paniers adverses par 100 possessions Numérique Float Continu
opp_fg_percent Pourcentage de réussite des paniers adverses Numérique Percentage Continu
opp_x3p_per_100_poss Paniers à 3 points adverses réussis par 100 possessions Numérique Float Continu
opp_x3pa_per_100_poss Paniers à 3 points adverses tentés par 100 possessions Numérique Float Continu
opp_x3p_percent Pourcentage de réussite des paniers à 3 points adverses Numérique Percentage Continu
opp_x2p_per_100_poss Paniers à 2 points adverses réussis par 100 possessions Numérique Float Continu
opp_x2pa_per_100_poss Paniers à 2 points adverses tentés par 100 possessions Numérique Float Continu
opp_x2p_percent Pourcentage de réussite des paniers à 2 points adverses Numérique Percentage Continu
opp_ft_per_100_poss Lancers francs adverses réussis par 100 possessions Numérique Float Continu
opp_fta_per_100_poss Lancers francs adverses tentés par 100 possessions Numérique Float Continu
opp_ft_percent Pourcentage de réussite des lancers francs adverses Numérique Percentage Continu
opp_orb_per_100_poss Rebonds offensifs adverses par 100 possessions Numérique Float Continu
opp_drb_per_100_poss Rebonds défensifs adverses par 100 possessions Numérique Float Continu
opp_trb_per_100_poss Total des rebonds adverses par 100 possessions Numérique Float Continu
opp_ast_per_100_poss Passes décisives adverses par 100 possessions Numérique Float Continu
opp_stl_per_100_poss Interceptions adverses par 100 possessions Numérique Float Continu
opp_blk_per_100_poss Contres adverses par 100 possessions Numérique Float Continu
opp_tov_per_100_poss Pertes de balle adverses par 100 possessions Numérique Float Continu
opp_pf_per_100_poss Fautes personnelles adverses par 100 possessions Numérique Float Continu
opp_pts_per_100_poss Points adverses par 100 possessions Numérique Float Continu
Per 100 Poss.csv

Nombre d’observations : 31136

Attribut Explication Type Format Type de données
seas_id Identifiant de la saison Numérique Integer Continu
season Saison Numérique YYYY Continu
player_id Identifiant du joueur Numérique Integer Continu
player Joueur Texte String Nominal
birth_year Année de naissance du joueur Numérique YYYY Continu
pos Poste du joueur Texte String Nominal
age Âge du joueur Numérique AA Continu
experience Nombre d’années dans la ligue Numérique Integer Continu
lg Ligue Texte String Nominal
tm Équipe Texte String Nominal
g Nombre de matchs joués Numérique Integer Continu
gs Nombre de matchs joués en tant que titulaire Numérique Integer Continu
mp Minutes jouées Numérique Integer Continu
fg_per_100_poss Paniers réussis par 100 possessions Numérique Float Continu
fga_per_100_poss Tentatives de paniers par 100 possessions Numérique Float Continu
fg_percent Pourcentage de réussite des paniers Numérique Percentage Continu
x3p_per_100_poss Paniers à 3 points réussis par 100 possessions Numérique - Float Continu
x3pa_per_100_poss Tentatives de paniers à 3 points par 100 possessions Numérique Float Continu
x3p_percent Pourcentage de réussite des paniers à 3 points Numérique Percentage Continu
x2p_per_100_poss Paniers à 2 points réussis par 100 possessions Numérique Float Continu
x2pa_per_100_poss Tentatives de paniers à 2 points par 100 possessions Numérique Float Continu
x2p_percent Pourcentage de réussite des paniers à 2 points Numérique Percentage Continu
ft_per_100_poss Lancers francs réussis par 100 possessions Numérique Float Continu
fta_per_100_poss Tentatives de lancers francs par 100 possessions Numérique Float Continu
ft_percent Pourcentage de réussite des lancers francs Numérique Percentage Continu
orb_per_100_poss Rebonds offensifs par 100 possessions Numérique Float Continu
drb_per_100_poss Rebonds défensifs par 100 possessions Numérique Float Continu
trb_per_100_poss Rebonds totaux par 100 possessions Numérique Float Continu
ast_per_100_poss Passes décisives par 100 possessions Numérique Float Continu
stl_per_100_poss Interceptions par 100 possessions Numérique Float Continu
blk_per_100_poss Contres par 100 possessions Numérique Float Continu
tov_per_100_poss Pertes de balle par 100 possessions Numérique Float Continu
pf_per_100_poss Fautes personnelles par 100 possessions Numérique Float Continu
pts_per_100_poss Points par 100 possessions Numérique Float Continu
o_rtg Offensive rating Numérique Integer Continu
d_rtg Defensive rating Numérique Integer Continu
Per 36 Minutes.csv

Nombre d’observations : 31 136

Attribut Explication Type Format Type de données
seas_id Identifiant de la saison Numérique Integer Continu
season Saison Numérique YYYY Continu
player_id Identifiant du joueur Numérique Integer Continu
player Joueur Texte String Nominal
birth_year Année de naissance du joueur Numérique YYYY Continu
pos Poste du joueur Texte String Nominal
age Âge du joueur Numérique AA Continu
experience Nombre d’années dans la ligue Numérique Integer Continu
lg Ligue Texte String Nominal
tm Équipe Texte String Nominal
g Nombre de matchs joués Numérique Integer Continu
gs Nombre de matchs joués en tant que titulaire Numérique Integer Continu
mp Minutes jouées Numérique Integer Continu
fg_per_36_min Paniers réussis par 36 minutes Numérique Float Continu
fga_per_36_min Tentatives de paniers par 36 minutes Numérique Float Continu
fg_percent Pourcentage de réussite des paniers Numérique Percentage Continu
x3p_per_36_min Paniers à 3 points réussis par 36 minutes Numérique Float Continu
x3pa_per_36_min Tentatives de paniers à 3 points par 36 minutes Numérique Float Continu
x3p_percent Pourcentage de réussite des paniers à 3 points Numérique Percentage Continu
x2p_per_36_min Paniers à 2 points réussis par 36 minutes Numérique Float Continu
x2pa_per_36_min Tentatives de paniers à 2 points par 36 minutes Numérique Float Continu
x2p_percent Pourcentage de réussite des paniers à 2 points Numérique Percentage Continu
ft_per_36_min Lancers francs réussis par 36 minutes Numérique Float Continu
fta_per_36_min Tentatives de lancers francs par 36 minutes Numérique Float Continu
ft_percent Pourcentage de réussite des lancers francs Numérique Percentage Continu
orb_per_36_min Rebonds offensifs par 36 minutes Numérique Float Continu
drb_per_36_min Rebonds défensifs par 36 minutes Numérique Float Continu
trb_per_36_min Rebonds totaux par 36 minutes Numérique Float Continu
ast_per_36_min Passes décisives par 36 minutes Numérique Float Continu
stl_per_36_min Interceptions par 36 minutes Numérique Float Continu
blk_per_36_min Contres par 36 minutes Numérique Float Continu
tov_per_36_min Pertes de balle par 36 minutes Numérique Float Continu
pf_per_36_min Fautes personnelles par 36 minutes Numérique Float Continu
pts_per_36_min Points par 36 minutes Numérique Float Continu
Player Awards Shares.csv

Nombre d’observations : ?

Attribut Explication Type Format Type de données
season Saison Numérique YYYY Continu
award Prix Texte String Nominal
player Joueur Texte String Nominal
age Âge du joueur Numérique AA Continu
tm Équipe Texte String Nominal
first Nombre de votes pour la première place Numérique Integer Continu
pts_won Points gagnés dans le vote du prix question Numérique Integer Continu
pts_max Maximum de points possible à gagner Numérique Integer Continu
share Pourcentage des votes Numérique Percentage Continu
winner Vainqueur Booléen TRUE / FALSE Nominal
seas_id Identifiant de la saison Numérique Integer Continu
player_id Identifiant du joueur Numérique Integer Continu
Player Career Info.csv

Nombre d’observations : ?

Attribut Explication Type Format Type de données
player_id Identifiant du joueur Numérique Integer Continu
player Joueur Texte String Nominal
birth_year Année de naissance du joueur Numérique YYYY Continu
hof Intégration du Hall Of Fame Booléen TRUE / FALSE Nominal
num_seasons Nombre de saisons passées dans la ligue Numérique Integer Continu
first_seas Année de la première saison Numérique Integer Continu
last_seas Année de la dernière saison Numérique Integer Continu
Team Abbrev.csv

Nombre d’observations : 1841

Attribut Explication Type Format Type de données
season Saison Texte YYYY Continu
lg Ligue Texte NBA ou ABA ou BAA Nominal
team Équipe Texte String Nominal
playoffs Participation aux playoffs Booléen True ou False Nominal
abbreviation Abréviation de l’équipe Texte 3 caractères (majuscule) Nominal
Team Stats per 100 Poss.csv

Nombre d’observations : 1402

Attribut Explication Type Format Type de données
season Saison Texte YYYY Continu
lg Ligue Texte NBA ou ABA ou BAA Nominal
team Équipe Texte String Nominal
playoffs Participation aux playoffs Booléen True ou False Nominal
abbreviation Abréviation de l’équipe Texte 3 caractères (majuscule) Nominal
g Nombre de matchs joués Numérique Integer Continu
mp Minutes jouées Numérique Integer Continu
fg_per_100_poss Paniers réussis Numérique Float Continu
fga_per_100_poss Tentatives de paniers Numérique Float Continu
fg_percent Pourcentage de réussite aux paniers Numérique 0 < Float < 1 Continu
x3p_per_100_poss Paniers à trois points réussis Numérique Float Continu
x3pa_per_100_poss Tentatives de paniers à trois points Numérique Float Continu
x3p_percent Pourcentage de réussite aux paniers à trois Numérique 0 < Float < 1 Continu
x2p_per_100_poss Paniers à deux points réussis Numérique Float Continu
x2pa_per_100_poss Tentatives de paniers à deux points Numérique Float Continu
x2p_percent Pourcentage de réussite aux paniers à deux Numérique 0 < Float < 1 Continu
ft_per_100_poss Lancers francs réussis Numérique Float Continu
fta_per_100_poss Tentatives de lancers francs Numérique Float Continu
ft_percent Pourcentage de réussite aux lancers francs Numérique 0 < Float < 1 Continu
orb_per_100_poss Rebonds offensifs Numérique Float Continu
drb_per_100_poss Rebonds défensifs Numérique Float Continu
trb_per_100_poss Total des rebonds Numérique Float Continu
ast_per_100_poss Passes décisives Numérique Float Continu
stl_per_100_poss Interceptions Numérique Float Continu
blk_per_100_poss Contres Numérique Float Continu
tov_per_100_poss Balles perdues Numérique Float Continu
pf_per_100_poss Fautes personnelles Numérique Float Continu
pts_per_100_poss Points Numérique Float Continu
Team Stats Per Game.csv

Nombre d’observations : 1845

Attribut Explication Type Format Type de données
season Saison Texte YYYY Continu
lg Ligue Texte NBA ou ABA ou BAA Nominal
team Équipe Texte String Nominal
playoffs Participation aux playoffs Booléen True ou False Nominal
abbreviation Abréviation de l’équipe Texte 3 caractères (majuscule) Nominal
g Nombre de matchs joués Numérique Integer Continu
mp_per_game Minutes par match Numérique Float Continu
fg_per_game Paniers réussis par match Numérique Float Continu
fga_per_game Tentatives de paniers par match Numérique Float Continu
fg_percent Pourcentage de réussite aux paniers Numérique 0 < Float < 1 Continu
x3p_per_game Paniers à trois points réussis par match Numérique Float Continu
x3pa_per_game Tentatives de paniers à trois points Numérique Float Continu
x3p_percent Pourcentage de réussite aux paniers à trois Numérique 0 < Float < 1 Continu
x2p_per_game Paniers à deux points réussis par match Numérique Float Continu
x2pa_per_game Tentatives de paniers à deux points Numérique Float Continu
x2p_percent Pourcentage de réussite aux paniers à deux Numérique 0 < Float < 1 Continu
ft_per_game Lancers francs réussis par match Numérique Float Continu
fta_per_game Tentatives de lancers francs par match Numérique Float Continu
ft_percent Pourcentage de réussite aux lancers francs Numérique 0 < Float < 1 Continu
orb_per_game Rebonds offensifs par match Numérique Float Continu
drb_per_game Rebonds défensifs par match Numérique Float Continu
trb_per_game Total des rebonds par match Numérique Float Continu
ast_per_game Passes décisives par match Numérique Float Continu
stl_per_game Interceptions par match Numérique Float Continu
blk_per_game Contres par match Numérique Float Continu
tov_per_game Balles perdues par match Numérique Float Continu
pf_per_game Fautes personnelles par match Numérique Float Continu
pts_per_game Points par match Numérique Float Continu
Team Summaries.csv

Nombre d’observations : 1845

Attribut Explication Type Format Type de données
season Saison Texte YYYY Continu
lg Ligue Texte NBA ou ABA ou BAA Nominal
team Équipe Texte String Nominal
playoffs Participation aux playoffs Booléen True ou False Nominal
abbreviation Abréviation de l’équipe Texte 3 caractères (majuscule) Nominal
age Âge moyen des joueurs de l’équipe Numérique Float Continu
w Victoires Numérique Integer Continu
l Défaites Numérique Integer Continu
pw Victoires pondérées Numérique Inter Continu
pl Défaites pondérées Numérique Float Continu
mov Marge de victoire moyenne Numérique Float Continu
sos Force de l’opposition (Permet d’évaluer la difficulté d’un calendrier en fonction du nombre de matchs disputés contre les mieux classés. Utile quand en NBA chaque équipe ne joue pas le même nombre de fois les unes contre les autres. La moyenne est fixée à zéro. Plus la note est haute et plus le calendrier est difficile.) Numérique Float Continu
srs Score relatif de l’équipe Numérique Float Continu
o_rtg Cote offensive Numérique Float Continu
d_rtg Cote défensive Numérique Float Continu
n_rtg Cote nette Numérique Float Continu
pace Estimation du nombre de possessions en 48 minutes Numérique Float Continu
f_tr Fréquence de lancer franc Numérique 0 < Float < 1 Continu
x3p_ar Taux de tentatives à trois points Numérique 0 < Float < 1 Continu
ts_percent Pourcentage de vrai tir Numérique 0 < Float < 1 Continu
e_fg_percent Pourcentage de tir effectif Numérique 0 < Float < 1 Continu
tov_percent Pourcentage de perte de balle Numérique Float Continu
orb_percent Pourcentage de rebond offensif Numérique Float Continu
ft_fga Ratio lancers francs par tentative de tir Numérique 0 < Float < 1 Continu
opp_e_fg_percent Pourcentage de tir effectif de l’adversaire Numérique 0 < Float < 1 Continu
opp_tov_percent Pourcentage de perte de balle de l’adversaire Numérique Float Continu
opp_drb_percent Pourcentage de rebond défensif de l’adversaire Numérique Float Continu
opp_ft_fga Ratio lancers francs de l’adversaire Numérique 0 < Float < 1 Continu
arena Arène où se déroulent les matchs Texte String Nominal
attend Nombre total de spectateurs Numérique Integer Continu
attend_g Nombre moyen de spectateurs par match Numérique Integer Continu
Team Totals.csv

Nombre d’observations : 1845

Attribut Explication Type Format Type de données
season Saison Texte YYYY Continu
lg Ligue Texte NBA ou ABA ou BAA Nominal
team Équipe Texte String Nominal
playoffs Participation aux playoffs Booléen True ou False Nominal
abbreviation Abréviation de l’équipe Texte 3 caractères (majuscule) Nominal
g Nombre de matchs joués Numérique Integer Continu
mp Minutes jouées Numérique Integer Continu
fg Paniers réussis Numérique Integer Continu
fga Tentatives de paniers Numérique Integer Continu
fg_percent Pourcentage de réussite aux paniers Numérique 0 < Float < 1 Continu
x3p Paniers à trois points réussis Numérique Integer Continu
x3pa Tentatives de paniers à trois points Numérique Integer Continu
x3p_percent Pourcentage de réussite aux paniers à trois Numérique 0 < Float < 1 Continu
x2p Paniers à deux points réussis Numérique Integer Continu
x2pa Tentatives de paniers à deux points Numérique Integer Continu
x2p_percent Pourcentage de réussite aux paniers à deux Numérique 0 < Float < 1 Continu
ft Lancers francs réussis Numérique Integer Continu
fta Tentatives de lancers francs Numérique Integer Continu
ft_percent Pourcentage de réussite aux lancers francs Numérique 0 < Float < 1 Continu
orb Rebonds offensifs Numérique Integer Continu
drb Rebonds défensifs Numérique Integer Continu
trb Total des rebonds Numérique Integer Continu
ast Passes décisives Numérique Integer Continu
stl Interceptions Numérique Integer Continu
blk Contres Numérique Integer Continu
tov Balles perdues Numérique Integer Continu
pf Fautes personnelles Numérique Integer Continu
pts Points Numérique Integer Continu
Player Per Game.csv

Nombre d’observations: 31815

Attribut Explication Type Type de donnée Format de la donnée
seas_id Identifiant de la saison Numérique Nominal Integer
season Saison de la ligue Texte Nominal Texte
player_id Identifiant du joueur Numérique Nominal Integer
player Nom du joueur Texte Nominal Texte
birth_year Année de naissance du joueur Numérique Ordinale YYYY
pos Position du joueur sur le terrain Texte Nominal Texte
age Âge du joueur Numérique Continu Integer
experience Nombre d’années d’expérience en ligue Numérique Continu Integer
lg Ligue dans laquelle le joueur évolue Texte Nominal Texte
tm Équipe du joueur Texte Nominal Texte
g Nombre de matchs joués Numérique Continu Integer
gs Nombre de matchs joués en tant que titulaire Numérique Continu Integer
mp_per_game Minutes jouées par match Numérique Continu Integer
fg_per_game Paniers réussis par match Numérique Continu Integer
fga_per_game Tentatives de paniers par match Numérique Continu Integer
fg_percent Pourcentage de réussite des paniers Numérique Continu Pourcentage
x3p_per_game Paniers à 3 points réussis par match Numérique Continu Integer
x3pa_per_game Tentatives de paniers à 3 points par match Numérique Continu Integer
x3p_percent Pourcentage de réussite des paniers à 3 points Numérique Continu Pourcentage
x2p_per_game Paniers à 2 points réussis par match Numérique Continu Integer
x2pa_per_game Tentatives de paniers à 2 points par match Numérique Continu Integer
x2p_percent Pourcentage de réussite des paniers à 2 points Numérique Continu Pourcentage
e_fg_percent Pourcentage de réussite des tirs effectifs Numérique Continu Pourcentage
ft_per_game Lancers francs réussis par match Numérique Continu Integer
fta_per_game Tentatives de lancers francs par match Numérique Continu Integer
ft_percent Pourcentage de réussite des lancers francs Numérique Continu Pourcentage
orb_per_game Rebonds offensifs par match Numérique Continu Integer
drb_per_game Rebonds défensifs par match Numérique Continu Integer
trb_per_game Total des rebonds par match Numérique Continu Integer
ast_per_game Passes décisives par match Numérique Continu Integer
stl_per_game Interceptions par match Numérique Continu Integer
blk_per_game Contres par match Numérique Continu Integer
tov_per_game Pertes de balles par match Numérique Continu Integer
pf_per_game Fautes personnelles par match Numérique Continu Integer
pts_per_game Points marqués par match Numérique Continu Integer
Player Play By Play.csv

Nombre d’observations : 16730

Attribut Explication Type Type de donnée Format de la donnée
seas_id Identifiant de la saison Numérique Nominal Integer
season Saison de la ligue Texte Nominal Texte
player_id Identifiant du joueur Numérique Nominal Integer
player Nom du joueur Texte Nominal Texte
birth_year Année de naissance du joueur Numérique Ordinal YYYY
pos Position du joueur sur le terrain Texte Nominal Texte
age Âge du joueur Numérique Continu Integer
experience Nombre d’années d’expérience en ligue Numérique Continu Integer
lg Ligue dans laquelle le joueur évolue Texte Nominal Texte
tm Équipe du joueur Texte Nominal Texte
g Nombre de matchs joués Numérique Continu Integer
mp Minutes jouées par match Numérique Continu Integer
fg_percent Pourcentage de réussite des tirs Numérique Continu Pourcentage
sg_percent Pourcentage de réussite des tirs au poste de shooting guard Numérique Continu Pourcentage
sf_percent Pourcentage de réussite des tirs au poste de small forward Numérique Continu Pourcentage
pf_percent Pourcentage de réussite des tirs au poste de power forward Numérique Continu Pourcentage
c_percent Pourcentage de réussite des tirs au poste de center Numérique Continu Pourcentage
on_court_plus_minus_per_100_poss Différentiel de points marqués par 100 possessions quand sur le terrain Numérique Continu Integer
net_plus_minus_per_100_poss Différentiel de points nets par 100 possessions Numérique Continu Integer
bad_pass_turnover Nombre de pertes de balle dues à des mauvaises passes Numérique Continu Integer
lost_ball_turnover Nombre de pertes de balle dues à des balles perdues Numérique Continu Integer
shooting_foul_committed Nombre de fautes de tir commises Numérique Continu Integer
offensive_foul_committed Nombre de fautes offensives commises Numérique Continu Integer
shooting_foul_drawn Nombre de fautes de tir subies Numérique Continu Integer
offensive_foul_drawn Nombre de fautes offensives subies Numérique Continu Integer
points_generated_by_assists Points générés par des passes décisives Numérique Continu Integer
and1 Nombre de tirs réussis malgré une faute et convertis en un panier supplémentaire Numérique Continu Integer
fga_blocked Nombre de tentatives de tirs bloquées Numérique Continu Integer
Player Season Info.csv

Nombre d’observations : 31815

Attribut Explication Type Type de donnée Format de la donnée
season Saison de la ligue Texte Nominal Texte
seas_id Identifiant de la saison Numérique Nominal Integer
player_id Identifiant du joueur Numérique Nominal Integer
player Nom du joueur Texte Nominal Texte
birth_year Année de naissance du joueur Numérique Ordinal YYYY
pos Position du joueur sur le terrain Texte Nominal Texte
age Âge du joueur Numérique Continu Integer
lg Ligue dans laquelle le joueur évolue Texte Nominal Texte
tm Équipe du joueur Texte Nominal Texte
experience Nombre d’années d’expérience en ligue Numérique Continu Integer
Player Shooting.csv

Nombre d’observations : 16730

Attribut Explication Type Type de donnée Format de la donnée
seas_id Identifiant de la saison Numérique Nominal Integer
season Saison de la ligue Texte Nominal Texte
player_id Identifiant du joueur Numérique Nominal Integer
player Nom du joueur Texte Nominal Texte
birth_year Année de naissance du joueur Numérique Ordinal YYYY
pos Position du joueur sur le terrain Texte Nominal Texte
age Âge du joueur Numérique Continu Integer
experience Nombre d’années d’expérience en ligue Numérique Continu Integer
lg Ligue dans laquelle le joueur évolue Texte Nominal Texte
tm Équipe du joueur Texte Nominal Texte
g Nombre de matchs joués Numérique Continu Integer
mp Minutes jouées par match Numérique Continu Integer
fg_percent Pourcentage de réussite des tirs Numérique Continu Pourcentage
avg_dist_fga Distance moyenne des tentatives de tirs Numérique Continu Integer
percent_fga_from_x2p_range Pourcentage de tentatives de tirs provenant de 2 points Numérique Continu Pourcentage
percent_fga_from_x0_3_range Pourcentage de tentatives de tirs provenant de 0-3 pieds Numérique Continu Pourcentage
percent_fga_from_x3_10_range Pourcentage de tentatives de tirs provenant de 3-10 pieds Numérique Continu Pourcentage
percent_fga_from_x10_16_range Pourcentage de tentatives de tirs provenant de 10-16 pieds Numérique Continu Pourcentage
percent_fga_from_x16_3p_range Pourcentage de tentatives de tirs provenant de 16 pieds-3 points Numérique Continu Pourcentage
percent_fga_from_x3p_range Pourcentage de tentatives de tirs à 3 points Numérique Continu Pourcentage
fg_percent_from_x2p_range Pourcentage de réussite des tirs provenant de 2 points Numérique Continu Pourcentage
fg_percent_from_x0_3_range Pourcentage de réussite des tirs provenant de 0-3 pieds Numérique Continu Pourcentage
fg_percent_from_x3_10_range Pourcentage de réussite des tirs provenant de 3-10 pieds Numérique Continu Pourcentage
fg_percent_from_x10_16_range Pourcentage de réussite des tirs provenant de 10-16 pieds Numérique Continu Pourcentage
fg_percent_from_x16_3p_range Pourcentage de réussite des tirs provenant de 16 pieds-3 points Numérique Continu Pourcentage
fg_percent_from_x3p_range Pourcentage de réussite des tirs à 3 points Numérique Continu Pourcentage
percent_assisted_x2p_fg Pourcentage de paniers à 2 points assistés Numérique Continu Pourcentage
percent_assisted_x3p_fg Pourcentage de paniers à 3 points assistés Numérique Continu Pourcentage
percent_dunks_of_fga Pourcentage de dunks parmi les tentatives de tirs Numérique Continu Pourcentage
num_of_dunks Nombre de dunks Numérique Continu Integer
Player Totals.csv

Nombre d’observations : 31815

Attribut Explication Type Type de donnée Format de la donnée
seas_id Identifiant de la saison Numérique Nominal Integer
season Saison de la ligue Texte Nominal Texte
player_id Identifiant du joueur Numérique Nominal Integer
player Nom du joueur Texte Nominal Texte
birth_year Année de naissance du joueur Numérique Ordinal YYYY
pos Position du joueur sur le terrain Texte Nominal Texte
age Âge du joueur Numérique Continu Integer
experience Nombre d’années d’expérience en ligue Numérique Continu Integer
lg Ligue dans laquelle le joueur évolue Texte Nominal Texte
tm Équipe du joueur Texte Nominal Texte
g Nombre de matchs joués Numérique Continu Integer
gs Nombre de matchs joués en tant que titulaire Numérique Continu Integer
mp Minutes jouées Numérique Continu Integer
fg Paniers réussis Numérique Continu Integer
fga Tentatives de paniers Numérique Continu Integer
fg_percent Pourcentage de réussite des paniers Numérique Continu Pourcentage
x3p Paniers à 3 points réussis Numérique Continu Integer
x3pa Tentatives de paniers à 3 points Numérique Continu Integer
x3p_percent Pourcentage de réussite des paniers à 3 points Numérique Continu Pourcentage
x2p Paniers à 2 points réussis Numérique Continu Integer
x2pa Tentatives de paniers à 2 points Numérique Continu Integer
x2p_percent Pourcentage de réussite des paniers à 2 points Numérique Continu Pourcentage
e_fg_percent Pourcentage de réussite des tirs effectifs Numérique Continu Pourcentage
ft Lancers francs réussis Numérique Continu Integer
fta Tentatives de lancers francs Numérique Continu Integer
ft_percent Pourcentage de réussite des lancers francs Numérique Continu Pourcentage
orb Rebonds offensifs Numérique Continu Integer
drb Rebonds défensifs Numérique Continu Integer
trb Total des rebonds Numérique Continu Integer
ast Passes décisives Numérique Continu Integer
stl Interceptions Numérique Continu Integer
blk Contres Numérique Continu Integer
tov Pertes de balle Numérique Continu Integer
pf Fautes personnelles Numérique Continu Integer
pts Points marqués Numérique Continu Integer

II. Plan d’analyse

Voici les questions que nous avons élaboré pour pouvoir étudier notre jeu de données :

1. Est que le MVP est forcément qualifié au playoff ou gagnant de cette compétition ?

Description : En effet, lorsqu’on se pose cette question, nous voudrons savoir si le MVP a un grand impact sur la qualification de son équipe au play-offs ou il est aussi important de comparer combien de fois le MVP n’a pas été qualifié en playoffs ou n’a pas remporté le championnat. Il est important de répondre à cette question afin de comprendre si l’aspect individuel ou collectif est le plus important à la victoire ainsi cela va nous montrer si la présence de joueur star va être synonyme de succès. Nous pensons obtenir des informations montrant que l’aspect collectif du basket est plus important que l’aspect individuel donc il peut y avoir plusieurs saisons où le MVP n’est pas forcément gagnant des play-offs.

Sources des données : Pour pouvoir répondre à cette question, nous allons utiliser les fichiers End Of Season Teams et le Player Career Info où il y a les variables suivantes : MVP, la qualification en playoffs pour chaque équipe et le statut de champion pour chaque équipe. En répondant à cette question, nous pouvons rencontrer les problèmes suivants : Les équipes peuvent changer de composition d’une saison à l’autre, rendant la comparaison moins directe. Des facteurs externes tels que les blessures, les transactions de joueurs, ou d’autres événements inattendus peuvent influencer les résultats. Il peut y avoir des saisons où le MVP est clairement défini, tandis que dans d’autres, il peut y avoir plusieurs prétendants sérieux.

Visualisations possibles :

  • Un diagramme en barres ou un diagramme circulaire pour comparer la fréquence à laquelle le MVP est également le champion de la ligue.
  • Un diagramme en barres empilées ou un graphique en secteurs pour comparer la proportion de MVPs qualifiés en playoffs par rapport à ceux qui ne le sont pas.
  • Un graphique en nuage de points avec une ligne de tendance pour visualiser la corrélation entre le fait d’être élu MVP et la qualification en playoffs, ou entre le fait d’être élu MVP et la victoire du championnat.

2. Quelle est la différence entre le basket d’aujourd’hui et celui d’autrefois ?

Description : Lorsque nous abordons la différence entre le basket d’aujourd’hui et celui d’autrefois, nous souhaitons savoir comment le style de jeu a évolué au fils des années est ce que les équipes sont plus offensives, est ce que les équipes marquent plus en trois points … La réponse à cette question va nous mettre en lumière la manière dont ce sport a évolué au fils des années.

Sources des données : Pour obtenir des informations pertinentes, nous souhaitons comparer des variables telles que les statistiques de jeu (points marqués, pourcentage de tirs réussis, rebonds, passes décisives, etc.) mais aussi les caractéristiques des joueurs ainsi à travers cela nous pourrons aussi déceler le style de jeu des équipes. Pour répondre à la question, nous allons utiliser différents fichiers de notre dataset comme le Per 36 Minutes, Player Season Info et beaucoup d’autres …

Visualisations possibles :

Une visualisation adaptée à cette analyse serait un graphique en barres ou un graphique linéaire montrant l’évolution des différentes variables au fil du temps, permettant ainsi une comparaison visuelle claire entre le basket d’autrefois et celui d’aujourd’hui.

3. Existe-t-il une corrélation entre la moyenne d’âge d’une équipe et son classement dans la saison régulière ?

Description : En se posant cette question, on s’interroge sur la corrélation qu’il pourrait y avoir entre la moyenne d’âge d’une équipe et ses performances, si les équipes plus jeunes et qui manquent d’expérience peuvent être compétitives dans la ligue, ou alors au contraire elles sont dépassés par les équipes expérimentées avec des vétérans dont la moyenne d’âge est par conséquent plus grande.Cette question s’avère particulièrement pertinente en raison de son impact potentiel sur les stratégies de gestion d’équipe notamment au niveau du recrutement des différents profils des joueurs, ou encore la dynamique et l’équilibre parfait entre jeunesse et expérience.

Sources des données : Pour pouvoir répondre à cette question nous allons faire appel à plusieurs données présentes dans le tableau Team Summaries, dont premièrement la saison ( season) et l’équipe concernée ( team). On aura aussi besoin de la donnée “age” qui représente la moyenne d’âge de chaque équipe. Pour représenter les performances de l’équipe, on pourra s’intéresser à la variable “playoffs” qui est un booléen qui montre si l’équipe s’est qualifiée en playoffs ou pas, ou alors “w” qui représente le nombre de victoires de chaque équipe, ou encore la force de l’opposition(sos).

Visualisations possibles :

  • Un diagramme à barres avec l’âge des équipes en x et leur nombre de victoires en y ( ou leur participation en playoffs ou non avec un booléen 0 ou 1), et ce en représentant chaque équipe avec une barre, pour une saison en particulier.
  • Un scatterplot avec l’âge des équipes en x et leur nombre de victoires en y ( ou leur participation en playoffs ou non avec un booléen 0 ou 1), en ajoutant des lignes de tendances pour voir s’il y a une corrélation.

4. Les performances d’une équipe influencent-elles l’affluence des fans dans l’arène?

Description : En se posant cette question, nous allons nous interroger sur la corrélation entre les performances d’une équipe, que ce soit le nombre de victoires, sa participation en playoffs etc, et l’affluence des supporters dans l’arène de l’équipe. Cela revient à se demander si les fans sont influencés par les résultats sportifs lorsqu’ils décident d’assister à un match en personne, ce qui peut avoir un impact sur la billetterie et stratégie marketing etc., ou alors au contraire si l’affluence dans l’arène a un impact sur les performances de l’équipe ce qui pourrait fournir des informations cruciales sur la dynamique entre le soutien des fans et les résultats sportifs.

Sources des données : Pour pouvoir répondre à cette question nous avons à disposition le tableau Team Summaries, qui va nous fournir comme données l’équipe (team) et la saison ( season). Pour représenter l’affluence nous avons comme données “arena”, le nom de l’arène de l’équipe, “attend” l’affluence totale au cours de la saison, et “attend_g” l’affluence moyenne par match lors de cette saison là. Pour mesurer les performances, on a “playoffs” qui est un booléen qui montre si l’équipe s’est qualifiée en playoffs ou pas, ou alors “w” qui représente le nombre de victoires de chaque équipe, ou encore la force de l’opposition(sos).

Visualisations possibles :

  • Scatterplot: On peut modéliser l’affluence moyenne par match en fonction du nombre de victoires de chaque équipe. Chaque point représenterait une équipe, avec l’axe des x représentant le nombre de victoires et l’axe des y représentant l’affluence moyenne. On peut également colorer les points en fonction de la qualification en playoffs de chaque équipe.
  • Diagramme à barres: Chaque équipe serait représentée par une barre, avec l’affluence moyenne comme hauteur, on pourra colorer les barres en fonction de la qualification en playoffs.
  • Graphique en ligne: la saison en x et le nombre de victoires en y, chaque équipe représentant une ligne : Voir la différence entre saisons normales et saisons 2020 et 2021 avec l’épidémie du Covid donc pas ou peu d’affluences dans les arènes.

5. A quel age les performances des joueurs commencent à décliner ?

Description : Cette question cherche à déterminer à partir de quel âge les performances des joueurs de basketball professionels commencent à décliner. En effet, nous savons que l’âge peut avoir de nombreuses conséquences sur le coprs que ce soit mental ou physique avec par exemple une baisse de motivation après de nombreuses années à haut niveau ou de moins bons réflexes, moins de tonus musculaire… Nous allons examiner les données des saisons passées en NBA pour identifier les tendances de performance en fonction de l’âge des joueurs. Cela nous permettra de comprendre à quel moment les joueurs commencent généralement à montrer des signes de déclin physique ou de diminution de leurs performances. On pourra également

Sources des données : Nous utiliserons principalement le fichier “Player Totals” qui fournit des informations sur les performances des joueurs au fil du temps, y compris leur âge. Nous pourrons également consulter d’autres fichiers tels que “Player Shooting” pour obtenir des statistiques détaillées sur les performances des joueurs au niveau des tirs particulièrement. Nous pourrons utiliser les fichiers “Player Play By Play” et “Player Per Game” pour avoir des données sur le temps de jeu du joueur, des statistiques de défense…

Visualisations possibles :

  • Graphique en ligne ou en barres montrant les statistiques clés des joueurs (points marqués, pourcentage de tirs réussis, rebonds, etc.) en fonction de leur âge.
  • Courbe de régression ou graphique en nuage de points avec une ligne de tendance pour visualiser la corrélation entre l’âge des joueurs et leurs performances.
  • Comparaison visuelle des performances moyennes des joueurs à différents âges à l’aide de graphiques en barres empilées ou de graphiques linéaires.

6. Y a-t-il une corrélation entre les performances individuelles des joueurs clés et le succès de l’équipe ?

Description : Nous allons essayer de déterminer s’il existe une relation entre les performances individuelles des joueurs clés d’une équipe de basket et le succès global de cette équipe. Nous allons examiner les données mises à notre disposition pour évaluer la corrélation entre les performances des joueurs clés (tels que les meilleurs marqueurs, les MVP…) et les résultats de l’équipe (qualification en playoffs, succès en playoffs…).

Sources des données : Les fichiers “Advance”, “Per 100 Poss”, “Player Awards Shares”, “Player Career Info”, “Team Summaries” seront principalement utilisés pour obtenir les performances individuelles des joueurs clés et les corréler avec les résultats de leur l’équipe.

Visualisations possibles :

  • Graphique en nuage de points avec une ligne de tendance pour visualiser la corrélation entre les performances individuelles des joueurs clés et le succès de l’équipe.
  • Diagramme en barres ou en secteurs pour comparer les performances moyennes des joueurs clés des équipes à succès par rapport à celles des équipes moins performantes.
  • Carte thermique ou diagramme en boîte pour représenter la répartition des performances des joueurs clés en fonction des résultats de l’équipe (par exemple, qualification en playoffs ou non).

7. Est ce que les fautes ont un impact sur les performances de l’équipe ?

Description : En se posant cette question, nous cherchons à savoir s’il y a une corrélation entre les performances d’une équipe et le nombre de fautes qu’elle réalise. Cela permettra de voir si les fautes font baisser le moral des joueurs de l’équipe et se répercute sur les performances du groupe négativement, ou si, au contraire les fautes motivé les joueurs et ont donc un effet bénéfique sur les performances de l’équipe.

Sources des données : Pour récupérer les données sur les fautes, il y a plusieurs options possibles. Tout d’abord, nous pouvons éliminer les fichiers répertoriant les données des adversaires ( fichier “…opp…” ) car nous nous intéressons aux fautes des joueurs de l’équipe. Pour cela, il faut donc se baser sur les fichiers “Per 100 Poss.csv”, “Per 36 Minutes.csv”, “Team Stats per 100 Poss.csv”, “Team Stats Per Game.csv” et “Team Totals.csv”. Quant aux performances de l’équipe, nous pourrons donc étudier le nombre de victoires ou encore le nombre de points.

Visualisations possibles :

  • Un histogramme montrant la distribution du nombre de fautes commises par match, avec une ligne de distribution superposée des points marqués par match, pour visualiser comment les performances de l’équipe sont affectées par différentes tranches de fautes.
  • Un diagramme en boîte montrant la distribution des points marqués par match pour différentes tranches de nombre de fautes commises par match, permettant de visualiser les variations dans les performances en fonction des fautes.
  • Un graphique à barres montrant la moyenne des points marqués par match en fonction du nombre de fautes commises par match.

8. Est-ce que la NBA se tourne de plus en plus vers le spectacle ?

Description : Cette dernière question va nous permettre de découvrir si le style de jeu de la NBA se tourne plus vers du spectacle qu’avant. En effet, nous cherchons à savoir si, par match, le nombre de points évolue et si la nature de ces derniers est différents du passé.

Sources des données : Pour étudier cette question, nous allons avoir besoin de différentes données. Pour chacune de ces données, l’objectif va être de récupérer des valeurs les plus vieilles possible et de les comparer à des valeurs les plus récentes possible. Pour cela, nous pourrons comparer le nombre de points par match (fichier “Team Totals.csv”, attribut pts) ou encore le nombre de tentatives de tir à trois points (attribut x3p disponible dans plusieurs fichiers comme “Team Totals.csv” ou “Advance.csv”).

Visualisations possibles :

  • Graphique en nuages de points avec le nombre de points marqués par match par équipe pour les saisons les plus anciennes et les plus récentes.
  • Graphique en barres empilées montrant la répartition des points marqués par saison en distinguant les points marqués sur des tirs à deux points, des tirs à trois points et des lancers francs.

III. Exploration

1. Est que le MVP est forcément qualifié au playoff ou gagnant de cette compétition ?

En ce posant cette question, nous avons pour but de déterminer si le MVP (le meilleur joueur de la saison) permet à son équipe de participer à tous les coups aux playoffs et d’ensuite gagner la compétition. Pour répondre à cette question, nous allons utiliser les fichiers Player Award Shares afin de récupérer le MVP de chaque année et le fichier Player Totals pour récupérer son équipe. Nous utiliserons aussi le fichier Team Summaries pour savoir qu’elle est l’équipe gagnante de chaque saison (l’équipe gagnante est celle qui a gagné le plus de match). Ainsi, on pourrait imaginer que l’équipe possédant le meilleur joueur de la saison est forcément qualifiée pour aller en playoff et qu’elle a de grandes chances de gagner la compétition.

Pour récolter les données permettant de répondre à cette question, nous avons commencé par récupérer les MVP de chaque saison dans le fichier Player Award Shares. Ensuite, nous avons trouvé, pour chaque saison, qu’elle était l’équipe qui contenait le MVP dans le fichier Player Totals. Une fois cela fait, nous avons pu récupérer les équipes vainqueures de la compétition chaque saison. Il nous a ensuite suffi de comparer à chaque saison si l’équipe gagne la compétition est l’équipe qui contient le MVP.

En analysant ces diagrammes, nous pouvons donc constater une très forte corrélation entre le fait qu’une équipe qui contient le joueur avec le plus de valeur arrive en playoff. Depuis 1956, pratiquement toutes les équipes contenant ce joueur arrivent à se qualifier. Ensuite, nous pouvons constater que depuis 1956, environ deux tiers des équipes contenant le MVP arrive à gagner la compétition et remporter le titre de champion de la NBA. Les résultats de ces deux diagrammes circulaires peuvent s’expliquer par plusieurs faits. Le meilleur joueur de la saison apporte déjà beaucoup d’un point de vue sportif en marquant beaucoup de panier, réalisant beaucoup de contre-attaque et en ayant des forts pourcentages de réussite au tir, mais, ce dernier apporte aussi beaucoup d’un point de vue sportif en motivant ses coéquipiers tout au long de la saison.

Ainsi, grâce à ces diagrammes, nous pouvons donc répondre à la question par “Non, le MVP n’est pas forcément qualifié au playoff et non, il ne gagne pas forcément la compétition”. Cependant, une équipe possédant ce joueur voit drastiquement augmenter ces chances de gagner le titre de champion et posséder un tel joueur apporte un énorme avantage à l’équipe.

2.Quelle est la différence entre le basket d’aujourd’hui et celui d’autrefois ?

Dans cette partie, nous allons nous intéresser à la question suivante : Quelle est la différence entre le basket d’aujourd’hui et celui d’autrefois ? Pour répondre à cette question nous avons utilisé le fichier Team Summaries qui renferment plusieurs informations importantes pour répondre à cette question notamment les stats de jeu comme le nombres de tirs, de rebonds de trois points… Au cours de l’exploration de ce jeu de données, nous avons remarqué quelques données erronés dans certaines années notamment avant 1965 qui ont ainsi été mise de coté pour ne pas fausser les résultats. Nous avons aussi remarqué que les données sont assez complètes et détaillées et ne contiennet pas de valeurs manquantes. Nous avons décidé de nous focaliser de 1965 à 2024 pour répondre à notre question afin d’avoir un large spectre de comparaison pour voir l’évolution au courant de toute l’histoire de la NBA.

Concernant notre jeu de données sur la NBA, nous avons décidé de nous focaliser sur les points marqués par match, le pourcentage de réussite des tirs à trois points et le nombre de rebonds par match. Nous avons donc décidé de regrouper les années par tranches de 5 ans, en commençant à partir de 1965. Nous avons ensuite calculé les statistiques moyennes pour chaque période de 5 ans. Enfin, nous avons utilisé une palette de couleurs distinctes pour visualiser les données de manière plus attrayante.

Dans un premier temps, nous remarquons que le nombre de points marqués par match a augmenté de manière significative au fil des années, passant d’une moyenne d’environ 100 points par match dans les années 1965-1970 à plus de 110 points par match dans les années 2015-2020. Cette augmentation peut être due à plusieurs facteurs, tels que l’évolution des règles du jeu, l’amélioration des techniques de jeu et l’augmentation de la qualité des joueurs.

Dans un second temps, nous pouvons aussi ajouter pour le nombre de points marqués qu’il y a des années où il y a vraiment eu un grand nombres de points marqués comme dans les années 1985-1990 et 2015-2020 où ce sont des annés marqués par l’arrivée de joueurs stars comme Michael Jordan ou encore Stephen Curry qui ont marqué l’histoire de la NBA.

A contratio, il y a des années où le nombre de points marqués est plus bas comme dans les années 1970-1975 et 1990-1995 où le jeu était plus défensif et les équipes marquaient moins de points.

En conclusion, nous pouvons dire que le basket d’aujourd’hui est plus offensif que celui d’autrefois, avec une augmentation significative du nombre de points marqués par match au fil des années à cause de l’évolution des règles du jeu, l’amélioration des techniques de jeu et l’augmentation de la qualité des joueurs.

Dans ce graphique montrant l’évolution du pourcentage de tirs à trois points, nous pouvons constater une augmentation significative de ce pourcentage au fil des années. Cela s’explique par l’évolution des stratégies de jeu et des techniques de tir, ainsi que par l’importance croissante accordée aux tirs à trois points dans le basket moderne.

Les équipes ont de plus en plus recours à ce type de tir pour augmenter leur efficacité offensive et s’adapter aux nouvelles tendances du jeu. Ainsi, le basket d’aujourd’hui se caractérise par une utilisation plus fréquente et plus efficace des tirs à trois points par rapport à celui d’autrefois.

En effet, nous pouvons observer que durant les années 1965-1970, le pourcentage de tirs à trois points était très faible, ce qui s’explique par le fait que cette règle n’était pas encore intégrée dans le jeu. Cependant, au fil des années, ce pourcentage a augmenté de manière significative, atteignant des niveaux beaucoup plus élevés dans les années récentes. Cette évolution témoigne de l’importance croissante des tirs à trois points dans le jeu moderne de la NBA.

Par ailleurs, nous pouvons ajouter que durant les années 2020-2024, le pourcentage de tirs à trois points a atteint des niveaux record, ce qui reflète la tendance actuelle du jeu à privilégier les tirs extérieurs et à exploiter au maximum cette arme offensive cela peut s’expliquer à travers la présence de joueurs talentueyx dans ce domaine comme Stephen Curry, Klay Thompson ou encore James Harden qui ont révolutionné le jeu en étant des spécialistes du tir à trois points.

En conclusion, le basket d’aujourd’hui se caractérise par une utilisation plus fréquente et plus efficace des tirs à trois points par rapport à celui d’autrefois, ce qui témoigne de l’évolution des stratégies de jeu et des techniques de tir dans la NBA moderne.

Dans ce graphique montrant l’évolution des rebonds moyens par match, nous pouvons constater une tendance générale à la baisse du nombre de rebonds au fil des années. Cela peut s’expliquer par plusieurs facteurs, tels que l’évolution des stratégies de jeu, l’augmentation de la vitesse du jeu et la diminution du nombre de rebonds offensifs.

En effet, nous pouvons observer que le nombre de rebonds par match était plus élevé dans les années 1970-1980 avec une moyenne de 100 rebonds, ce qui s’explique par le jeu plus physique et plus défensif de cette époque. Les équipes accordaient une plus grande importance aux rebonds pour contrôler le jeu et limiter les possessions adverses avec des bons joueurs dans ce domaine.

Par ailleurs, nous pouvons constater que le nombre de rebonds a diminué progressivement au fil des années, atteignant des niveaux plus bas dans les années récentes avec environ 99.6 rebonds en moyenne. Cette évolution peut être due à l’augmentation de la vitesse du jeu, à l’importance croissante des tirs à trois points et à la diminution du nombre de rebonds offensifs.

En conclusion, le basket d’aujourd’hui se caractérise par une diminution du nombre de rebonds par match par rapport à celui d’autrefois, ce qui témoigne de l’évolution des stratégies de jeu et des techniques de jeu dans la NBA moderne. Les équipes accordent moins d’importance aux rebonds et privilégient d’autres aspects du jeu pour maximiser leur efficacité offensive et défensive.

Pour conlure la question posée, nous pouvons dire que le basket d’aujourd’hui est plus offensif que celui d’autrefois, avec une augmentation significative du nombre de points marqués par match au fil des années à cause de l’évolution des règles du jeu, l’amélioration des techniques de jeu et l’augmentation de la qualité des joueurs. De plus, le basket d’aujourd’hui se caractérise par une utilisation plus fréquente et plus efficace des tirs à trois points par rapport à celui d’autrefois, ce qui témoigne de l’évolution des stratégies de jeu et des techniques de tir dans la NBA moderne. Enfin, le basket d’aujourd’hui se caractérise par une diminution du nombre de rebonds par match par rapport à celui d’autrefois, ce qui témoigne de l’évolution des stratégies de jeu et des techniques de jeu dans la NBA moderne. Les équipes accordent moins d’importance aux rebonds et privilégient d’autres aspects du jeu pour maximiser leur efficacité offensive et défensive.

3. Existe-t-il une corrélation entre la moyenne d’âge d’une équipe et son classement dans la saison régulière ?

Dans cette partie nous allons nous intéresser à la question suivante : Existe-t-il une corrélation entre la moyenne d’âge d’une équipe et son classement dans la saison régulière ? Cette interrogation vise à comprendre s’il existe un lien entre l’âge moyen des membres d’une équipe et ses performances dans la ligue. Nous nous demandons si les équipes plus jeunes, manquant potentiellement d’expérience, peuvent rivaliser avec succès dans la ligue, ou si au contraire, elles sont surpassées par des équipes plus expérimentées, comptant davantage de vétérans et donc affichant une moyenne d’âge plus élevée. Pour y répondre, nous allons utiliser le fichier Team Summaries et nous intéressés à plusieurs données dont premièrement la saison ( season) et l’équipe concernée ( team). On aura aussi besoin de la donnée “age” qui représente la moyenne d’âge de chaque équipe. Pour représenter les performances de l’équipe, on pourra s’intéresser à la variable “playoffs” qui est un booléen qui montre si l’équipe s’est qualifiée en playoffs ou pas, ou alors “w” qui représente le nombre de victoires de chaque équipe, ou encore la force de l’opposition(sos).

Dans ce graphique, nous avons décidé de représenter le nombre de victoires des équipes NBA en fonction de leur moyenne d’age et ce durant la saison 2023 que nous avons pris comme exemple. Nous avons eu besoin des colonnes age, w,team et abbreviation pour pouvoir réaliser ce graphique. Nous avons aussi rendu le graphique intéractif à l’aide de plotly en affichant les informations sur les équipes lorsqu’on passe le curseur dessus. Premièrement,le graphique montre une tendance générale où les équipes avec un âge moyen plus élevé ont tendance à avoir un plus grand nombre de victoires, on remarque tout de meme une assez grande dispertion des données, et nous allons essayer d’expliquer celà. Prenons par exemple les trois équipes ayant gagné le plus de matchs lors de la saison réguliere 2023, il s’agit des Milwaukee Bucks( moyenne d’age 29.8), les Boston Celtics ( moyenne d’age 27.4) et Philadelphia 76ers ( moyenne d’age 28,2), on remarque directement que ces 3 équipes sont assez agés et sont toutes dans le top 10 des équipes les plus agées de la ligue. On remarque donc plus ou moins la présence d’une dizaine d’équipes dans la partie haute droite du graphe qui représente donc les équipes performantes et relativement agées ce qui montre que l’age et l’experience est un facteur essentiel de performance en NBA. D’autre part, en prenant les trois équipes ayant gagné le moins de matchs lors de la saison 2023, il s’agit des Detroit Pistons(moyenne d’age 24.1),les San Antonio Spurs(moyenne d’age 23.9) et les Houston Rockets(moyenne d’age 22.1), on remarque de meme que ces trois équipes sont très jeunes et font partie du top 5 des équipes les plus jeunes de la ligue. On remarque alors la présence d’une dizaine d’équipes dans la partie basse gauche du graphe, qui se distinguent par laur manque de performances, d’ou le nombre de victoires faible qui coincide aussi avec leur jeunesse et leur manque d’expérience. On en déduit que le manque d’éxpérience et de vétérans dans une équipe, ainsi que la présence de jeunes joueurs en développement sont des facteurs qui expliquent le manque de performances des équipes en NBA. En s’intéréessant aux autres parties du graphe, on remarque quelques exceptions, comme des équipes jeunes mais performantes dans la partie haute gauche du tableau, comme les Memphis Grizzlies ou les Cleveland Cavaliers, qui se distinguent donc par des talents individuels hors normes et des joueurs qui se développent rapidement ( Ja Morant, Evan Mobley), ce qui les rend compétitives pouvant rivaliser avec les meilleures équipes. Ou alors des équipes agées mais qui ne performent pas présentes dans la partie basse droite du graphe, comme les Dallas Mavericks ou les Chicago Bulls, qui se distinguent soit par des individualités et des talents vieillissants donc qui baissent de performances, ou alors qui souffrent de problèmes de blessures durant cette saison en particulier.

Le graphique ci-dessus illustre la relation entre l’âge moyen des équipes et leur nombre de victoires pour la saison 2010 de la ligue. Chaque point représente une équipe, colorée en rouge si elle n’a pas participé aux playoffs et en vert si elle a participé. Lorsque vous survolez un point, le nom de l’équipe s’affiche. On remarque tout d’abord comme pour la saison 2023, une tendance générale où les équipes avec un âge moyen plus élevé ont tendance à avoir un plus grand nombre de victoires, on remarque tout de meme une assez grande dispertion des données, plus importante que lors de la saison 2023. En portant notre interet à la partie haute gauche du graphe, on remarque que les équipes les plus agés sont bien performantes, mais en comaparaisant avec 2023, on remarque que les 3 équipes les plus performantes ne sont pas forcément parmi les plus agées, mais sont à la moyenne. En général,on remarque qu’il n’y a pas de schéma clair de répartition des équipes en fonction de leur âge moyen et de leur performance. En effet,avec l’observation des équipes qui ont participé aux playoffs (points verts) on remarque une répartition assez équilibrée entre les équipes jeunes et les équipes plus âgées, ce qui indique que l’âge moyen n’est pas le seul déterminant du succès en playoffs. Comme par exemple cette année là, l’équipe la plus vieille Dallas Mavericks, et la plus jeune, OKC Thundes sont toutes les deux en Playoffs.

Ainsi, pour pouvoir mieux visualiser ces données , nous avons créé un shiny dashboard composé de deux pages, la première comptient le deuxième graphique mais avec une barre pourpouvoir choisir l’année souhaitée, on peut alors très facilement changer les années et comparer les graphes. On peut par exemple facilement comparer l’année 2010 avec l’année 2016: La deuxième page contient des boites contenant des stats, qui calculent à chaque fois la moyenne d’age de la ligue, la moyenne d’age des équipes qualifiées en playoffs et la moyenne d’age de celles qui ne sont pas qualifiées dans des boites différentes, et qui changent selon l’année. Voici les examples pour les années 2010 et 2016: L’utilisation de Shiny Dashboard et la navugation entre les différentes années nous permet de constater encore plus que meme si la tendance reste la meme la dispertion des données entre une année et une autre, impliquant donc qu’il ne faut pas se fier à l’age seulement pour évaluer les performances d’une équipe.

Pour finir, on peut conclure que globalement, les équipes plus âgées semblent avoir un avantage compétitif, suggérant que l’expérience et la maturité des joueurs jouent un rôle crucial dans le succès sur le parquet, désavantageant donc la jeunesse. Mais on a remarqué plusieurs “exceptions” à cette règle que soit à cause de talents individuels ou de blessures, certaines équipes jeunes performent et certaines équipes agées ne performent pas. Ainsi, bien que l’âge moyen des équipes puisse offrir des indications sur leur potentiel de performance, d’autres variables interviennent également, et chaque saison apporte son lot d’imprédictibilités, ce qui est l’essence même du sport à haut niveau.

4. Les performances d’une équipe influencent-elles l’affluence des fans dans l’arène?

Dans cette partie nous allons nous intéresser à la question suivante : est ce que les performances d’uné équipe influencent-elles l’affluence des fans dans l’arène ? Pour répondre à cette question nous avons utilisé le fichier Team Summaries qui renferment plusieurs informations importantes pour répondre à cette question notamment le nombre de victoires, la qualification aux playoffs et sans oublier le nombre de spectacteurs. Au cours de l’exploration de ce jeu de données nous avons remarqué quelques données erronés dans certaines années qui ont été ainsi mis de coté pour ne pas fausser les résultats. Nous avons aussi remarqué que les données sont assez complètes et ne contiennent pas de valeurs manquantes. Nous avons donc décidé de nous focaliser sur l’année 2024 pour répondre à notre question pour le premier graphe tandis que pour le second celui ci contient les résultats de tout l’histoire de la NBA.

Concernant notre jeu de données sur la NBA, nous nous sommes focalisés sur l’affluence des spectateurs dans les stades. En effet lors de l’année de 2024, nous avons identifié certains éléments concernant cela. Dans un premier temps, nous remarquons que les équipes ayant atteind les play-offs au cours de la compétition connaissant une affluence moyenne de spectateurs assez conséquente, vu que l’équipe ayant atteind les play-offs avec le moins de spectateur (Oklahoma City Thunder) connait près de 17500 spectateurs moyens par match ainsi nous pouvons déceler que les bonnes performances sportives des équipes est un facteur impactant sur le nombre de spectateurs notamment la qualification à travers la qualification aux play-offs.

D’une part, nous pouvons aussi ajouter qu’il y a des équipes qui ne sont pas qualifiés au play-offs comme les Chicago Bulls, Philadelplia 76ers, Miami Heat ou encore les New York Knicks qui sont des équipes qui ont une très forte affluence moyenne avoisinant les 20000 spectateurs par match malgré des résultats plus mitigés cela peut s’expliquer de plusieurs manières : -Des équipes mythiques qui ont eu un grand palmarès et une grande histoire dans la NBA -Des équipes qui ont un style de jeu particulier, plaisant à regarder qui peuvent intéresser le grand public -Des équipes qui ont des joueurs stars -Des grandes villes possèdant de grands stades de basket pouvant ainsi accueillir plus de spectateurs -Des équipes qui possèdent une bonne communication pour attirer le public à travers l’invitation de personnalités publiques lors des matchs Tous ces critères peuvent ainsi expliquer cette forte affluence des fans et touristes dans les stades malgré les performances sportives. D’autre part, il y a des équipes qui ne sont ni qualifié au play-offs ni assez populaires comme les Charlottes Hornets, les Indianna Pacers et les Washington Wizards qui ont une affluence avoisinant les 16000 spectateurs par match cela peut s’expliquer les mauvaises performance sportives et le manque d’attractivité lié au club d’une manière générale. En conclusion, nous pouvons dire que les écarts maximum d’affluence moyenne de spectateurs est de maximum 5000 spectateurs par match et que les facteurs jouant sur l’affluence moyenne sont les performances sportives (playoffs) et l’attractivité du club (histoire, joueurs, style de jeu, communication, ville, stade, etc).

Dans ce graphique montrant l’affluence moyenne par match en fonction du nombre de victoires nous pouvons remarquer de nombreux éléments importants. En effet, nous remarquons que les équipes qui enchainent plus de victoire en une saison ont tendance à attirer plus de spectateurs dans les stades. Par ailleurs, nous pouvons voir que les équipes ayant plus de 50 victoires en une saison ont une affluence moyenne de plus de 20000 spectateurs par match. Cela peut s’expliquer par le fait que les équipes qui gagnent plus de matchs sont plus attractives pour les fans et les spectateurs qui ont envie de voir des matchs de qualité et des équipes performantes.De plus, nous observons que les équipes ayant moins de 30 victoires en une saison ont une affluence moyenne de moins de 15000 spectateurs par match. Cela peut s’expliquer par le fait que les équipes qui perdent plus de matchs sont moins attractives pour les fans et les spectateurs qui ont envie de voir des matchs de qualité et des équipes performantes. En conclusion, nous pouvons dire que les performances sportives des équipes influencent l’affluence des fans dans les stades. Plus une équipe gagne de matchs, plus elle attire de spectateurs dans les stades. En outre, nous remarquons que l’année 2020 et 2021, nous remarquons une baisse générale de l’affluence des fans dans les stades. Cela peut s’expliquer par la pandémie de COVID-19 qui a eu un impact négatif sur l’affluence des fans dans les stades. En effet, de nombreux matchs ont été annulés ou reportés en raison de la pandémie, ce qui a entraîné une baisse de l’affluence des fans dans les stades.Nous pouvons aussi ajouter que les équipes populaires quelque soit leurs palmarès attirent plus de spectateurs dans les stades. En effet, les équipes mythiques comme les Los Angeles Lakers, les Boston Celtics ou les Chicago Bulls attirent plus de spectateurs dans les stades en raison de leur histoire, de leur palmarès et de leur popularité. En revanche, les équipes moins populaires comme les Charlotte Hornets, les Indiana Pacers ou les Washington Wizards attirent moins de spectateurs dans les stades en raison de leur manque de popularité et de leur manque de succès sportif. En conclusion, nous pouvons dire que les performances sportives des équipes influencent l’affluence des fans dans les stades

Pour conclure la réponse à la question posée, nous pouvons dire que les performances des équipes influencent l’affluence des fans dans les stades. En effet, les équipes qui gagnent plus de matchs attirent plus de spectateurs dans les stades. De plus, les équipes qui se qualifient pour les playoffs ont une affluence moyenne plus élevée que les équipes qui ne se qualifient pas. En outre, les équipes populaires attirent plus de spectateurs dans les stades que les équipes moins populaires. En conclusion, nous pouvons dire que les performances sportives des équipes, la qualification aux playoffs et la popularité du club sont des facteurs importants qui influencent l’affluence des fans dans les stades.

5. A quel age les performances des joueurs commencent à décliner ?

Dans cette partie, nous allons nous intéresser à la question suivante : A quel age les performances des joueurs commencent à décliner ? Nous allons pour cela utiliser le fichier “Player Totals” qui regroupe les informations sur les différents joueurs en fonction de la saison. On va choisir de ne pas utiliser les données avant 1980 car pour la plupart elles sont en partis erronées ou manquantes. On va ensuite chercher à comparer les attaquants car c’est eux qui marquent le plus de points et la plupart des statistiques disponibles concernent les points, le pourcentage de réussite au tir…

Concernant notre jeu de données, nous remarquons à l’aide du barchart que le pourcentage de réussite des joueurs n’est pas directement lié avec leur âge puisque on remarque qu’il est le même pratiquement pour tous les âges. Il varie seulement de 0.39 pour le plus bas à 36 ans à 0.434 à 29 ans. On remarque cependant une très forte hausse à 40 ans, on va donc essayer de comprendre pourquoi car ce résultat semble très innatendu et peu probable.

On remarque que il y a que 4 données, sachant que pour un joueur il a mit seulement 2 point sur une seule tentative donc son pourcentage de réussite de 100% fausse forcément le résultat. Voici donc l’explication du graphe précédent.

Dans le prochain graphique, on va essayer de mettre en relation divers facteurs de performances comme le nombres de points totaux par saison et le nombre de minutes jouées par saison. J’ai choisi de ne pas mettre plus de facteurs de performances comme le nombres de matchs joués, les blocks défensifs… pour éviter la surcharge. Comme pour le graphe précédent, nous utiliserons que les données pour les années après 1980. Pour essayer d’avoir des résultats différents et surtout étudier le plus largement possible, j’ai choisi d’inclure tous les postes dans mon étude.

On remarque grâce à ce dernier graphe que les courbes sont pratiquement similaires. On pouvait effectivement s’attendre à ce résultat car plus on joue de matchs et plus on a l’occasion de mettre des points. Même si en NBA, la plupart des équipes préférent faire rentrer leur joueur expérimenté que peu de temps mais qu’il fasse une grosse différence sur le parquet. Cette hypothèse est envisageable mais n’est pas vérifié au niveau des points en tout cas. On va pour finir, essayer de voir s’il existe une corrélation entre l’âge et les blocks (performance défensive).

Sur ces derniers graphs, on voit tout d’abord que pour le nombres de points et pour le nombre de minute jouées par saison il y a un pic à 29 ans avec avant une montée progressive et ensuite une descente progressive et linéaire. Concernant les blocks donc une performance défensive, le pic est moins marqué mais on retrouve un pic autour de 29 ans également. Cependant on distingue une légère montée avant ce pic pour l’atteindre et ensuite une légère descente mais qui reste bien moins significative que pour les 2 graphiques précédent concernant le nombre de point par saison et les minutes jouées.

Pour conclure, dans cette analyse sur les performances des joueurs de la NBA en fonction de leur âge, nous avons observé des tendances intéressantes. En se concentrant sur les années post-1980 et en mettant l’accent sur les attaquants, nous avons constaté que le pourcentage de réussite au tir semble relativement stable avec l’âge, avec une exception notable à 40 ans due à un faible échantillon de données. En examinant d’autres indicateurs tels que le nombre moyen de minutes jouées par saison et le nombre moyen de points totaux marqués par saison, nous avons identifié un pic autour de 29 ans, suivi d’une diminution progressive des performances. On peut donc dire que toutes les performances ne sont pas affectées par l’âge mais certaines le sont en fonction des postes (plus ou moins physique), en fonction de la performance étudiée qui requiert plusou moins de force physique, de vivacité qui sont des atouts que l’ont perd avec l’âge. Pour avoir plus de précision sur la question, il faudrait étudier beaucoup plus de critères de performances et essayer de les correler avec les différents postes de jeu par exemple. Ces résultats suggèrent néanmoins l’importance de la gestion de l’effectif et des stratégies d’équipe en tenant compte de l’âge des joueurs dans certains cas.

7. Est ce que les fautes ont un impact sur les performances de l’équipe ?

Concernant cette question, nous allons nous intéresser à l impact des fautes sur les matchs de NBA,donc sur la victoire probable d une équipe ou non, que ce soit les fautes commises ou les fautes provoquées. Pour commencer, une faute implique un non respect des règles du jeu en ayant un caractère antisportif, il en existe plusieurs types, les plus importantes sont fautes personnelles qui impliquent un contact personnel illégal avec un adversaire, les fautes techniques qui englobent toute les actions antisportives mais qui ne sont pas un contact entre deux joueurs dans le jeu, contestations par exemples et enfin les fautes flagrantes qui mettent en danger l’intégrité physique de l’adversaire. Poue cette question nous allons seulement nous intéresser aux fautes personnelles, plus courantes et celles qui impactent le plus le jeu.

Pour commencer, au niveau du premier graphe, nous avons utilisé le fichier Teams Averages qui répertorie les moyennes par match des plus grandes catégories statistiques du basket. Nous avons décidé de nous concentrer sur une seule année pour pouvoir voir les différences entre toutes les équipes, nous nous sommes intéressés aux éléments pf_per_game, nombre de fautes personnelles par matchs pur chaque équipe, et à l’élément playoffs qui est un booléen ayant comme valeur TRUE si une équipe est qualifiée et FALSE sinon. Il s’agit donc d’un graphique à barres empilées dans lequel on a comparé la moyenne de fautes commises ( en ordonnée) par équipe ( en abcisse) selon la participation en playoffs ( vert ou rouge). De plus, la ligne horizontale en pointillé bleu représente la moyenne de fautes par match de toutes les équipes. Le graphique est aussi interactif grace à plotly et montre les détails des informations des équipes en survolant chaque barre. On remarque que les résultats sont très éparpillés,l’équipe qui a commis le plus de faute et l’équipe qui en a commis le moins ne sont pas qualifiés, cela indique une grande variabilité dans les fautes commises par les équipes, indépendamment de leur qualification aux playoffs. Celà peut s’expliquer par le fait que les fautes soient des faits de jeu parmi tant d’autres et n’influencent donc pas rééllement le cours du match, ce qui indique donc que les fautes personnelles ne sont pas un facteur déterminant pour la qualification en playoffs donc pour la victoire et la performance en général. Néanmoins, on peut remarquer une sorte de zone optimale de fautes personnelles, qui se situe entre 19 et 19,7 se rapprochant de la moyenne où les équipes peuvent jouer de manière suffisamment agressive sans trop pénaliser leur performance globale. On peut en conclure que pour pouvoir etre performant, il faudrait trouver un juste milieu entre l’agressivité et le fair-play.

Concernant le deuxième graphe, nous allons nous intéresser à un type spécifique des fautes personnelles, qui sont les fautes sur tir qui sont donc les fautes effectués lorsqu’un joueur est en action de tirer, il obtient alors des lancers francs. Nous allons donc essayer de voir l’effet de la provocation de fautes, donc l’obtention de lancers sur la victoire et la qualification en playoffs. Ainsi, dans ce graphe, nous avons utilisé les données teams, points per game en ordonnées, FT ( free throw = lancer franc) per game en abcisse et la qualification ou non en playoffs en vert ou rouge. On remarque premièrement certaines équipes situées en haut a droite dans le graphe, et coloriés en vert, ce sont donc des équipes qui marquent le plus de points dont beaucoup de lancers francs, et dont le ratio est de 20% de points marqués sont des lancers francs. Ces équipes là sont de couleur verte donc sont bien qualifiés en playoffs ce qui montre leur très bon niveau de performance. Au contraire, les équipes situées en bas à gauche sont celles qui marquent le moins de points et le moins de lancers france avec un ratio de 15%. Elles sont coloriés en rouge, donc ne sont pas qualifiés en playoffs. Meme si on remarque qu’au milieu du graphique on a plusieurs points éparpillés, on ne peut donc pas nier que le fait de provoquer des fautes, d’etre malin est une manière pour obtenir des lancers francs, une manière facile d’inscrire des points et donc d’augmenter les chances de gagner des matchs.

En conclusion, l’analyse des fautes personnelles commises par les équipes montre une grande variabilité des fautes commises par les équipes, indépendamment de leur qualification aux playoffs,meme si on a remarqué qu’etre dans la moyenne était plutot favorable à la performance. De plus, on a pu démontrer que la provocation de fautes et l’obtention de lancers francs sont des stratégies clés pour augmenter les chances de succès.

8. Est-ce que la NBA se tourne de plus en plus vers le spectacle ?

Enfin, cette question va avoir pour objectif de définir si la NBA est de plus en plus spectaculaire ou non. Il existe de multiple indicateurs qui peuvent nous permettre de répondre à cette questions mais nous allons étudier la distance de tir des joueurs. Les tirs à longue distance sont spectaculaires à observer et produise un effet direct sur le ressenti du spectateur du match. Il faut savoir qu’au basket, un tir vaut 3 points lorsqu’il est marqué à plus (d’environ) 7 mètres du panier et il vaut 2 points lorsqu’il est marqué en dessous de cette distance. Les tirs à 1 point résultent d’une faute de l’adversaire et sont tirés à exactement 4,6 mètres du panier.

Il faut cependant noter que la ligne des trois points a été introduite dans la NBA lors de la saison 1979-1980. Par conséquent, toutes les saisons avant cela n’auront naturellement pas de tir à 3 points.

Ainsi, pour résumer :

  • 3 points : un tir >= 7 mètres du panier
  • 2 points : un tir < 7 mètres du panier
  • 1 points : un tir à 4,6 mètres de distance, directement en face du panier et sans défenseurs

On constaste dans les deux premiers graphiques que les tirs à 3 points (plus de 7 mètres) prennent une place de plus en plus grande au fil des années. De plus depuis la saison 1987-1988, soit 8 ans après l’introduction du nouveau type de panier, les équipes jouent moins les paniers à 2 points et jouent plus les paniers à 3 points car ils sont stratégiquement plus intéressants. Ainsi, La distance d’un panier marqué a donc un impact direct sur le style de jeu et la dimension spectaculaire du sport.

Nous pouvons donc ainsi nous demander si la NBA s’est plus tourné vers du spectacle uniquement avec l’arrivée de cette nouvelle règle, ou si cette évolution ne s’est pas arrêté. Ainsi, nous allons maintenant étudier plus en détail l’évolution des paniers à 3 points.

Depuis l’arrivée des paniers à 3 points en NBA (1980), on constate que le nombre médian de panier à 3 points est en hausse depuis les années 80. Durant la première décennie, nous constatons avoir beaucoup de valeur aberrantes, cela est dû au fait que la règle était nouvelle et que toutes les équipes ne se sont pas directement adapté à ce style de jeu. L’évolution la plus importante du nombre médian est entre la première et seconde décennie : il est passé de 63 à 290 et s’est donc multiplié par 4,6. Cela confirme donc ce que nous avons dit précédemment (que les équipes se sont mis à plus joué autour des paniers à 3 points après la saison de 1987-88).

On constate aussi que la médiane de panier à 3 points entre l’avant-dernière et dernière boite à moustache augmente considérablement (x1.4) alors que nous ne sommes même pas à la moitié de la décennie actuelle. Cela signifie qu’à la fin de la décennie, les valeurs de cette boîte à moustache seront encore plus augmentées. Ainsi, nous pouvons répondre à la question que nous nous sommes posé par “oui, la NBA se tourne de plus en plus vers le spectacle”.

IV. Conclusion

Pour conclure, cette analyse nous a permis de découvrir plus en détail le championnat de la NBA aux États-Unis et des différentes parties prenant poussant une équipe à être vainqueur du championnat. Nous avons analysé l’impacter de joueurs stars sur leurs équipes, comme par exemple l’impact du meilleur joueur de la saison (MVP) sur la qualification de son équipe. De plus, nous avons aussi pu en apprendre plus sur l’évolution du sport et de la compétition en général, en nous intéressons à l’évolution de la qualité de jeu proposé et du nombre de spectateurs par match.

La difficulté majeure que nous avons rencontrée dans ce projet était causé par la taille de notre jeu de données. En effet, notre dataset était composé de 21 fichiers et il était parfois difficile de manipuler certaines données quand elles n’étaient pas contenues dans la même table.

Pour conclure ce projet, chaque membre de notre groupe va exprimer la compétence qu’il a retenu de ce projet et un aspect qu’il aurait apprécié aborder dans ce projet mais qu’il n’a pas été possible d’effectuer : * Youssef : La compétence que j’ai retenu durant ce projet est le fait de réaliser différents types de graphique sur R, me permettant ainsi de faire des visualisations claires et lisibles pour le grand public en alliant mes connaissances théoriques notamment sur les biais cognitifs et mes compétences techniques sur R en utilisant différentes librairies. Un aspect que je voulais vraiment aborder est l’utilisation du logiciel Power Bi qui très utilisé dans les entreprises ainsi c’est pour cette raison que j’aurais voulu quand l’aborde un peu plus en détail au vue de son importance et de sa popularité dans le monde du travail. * Antoine : Au cours de ce projet, j’ai pu améliorer ma capacité à réaliser des graphes à la fois impactant et qui raconte correctement le message que je veux transmettre. Cependant, j’aurais apprécié que ce projet traite plus en détail la partie technique pour apprendre à réaliser des diagrammes plus complexes et détaillé. * Thomas : * Mohamed :

Cette UE a été pour moi l’occasion de découvrir une méthode différente de python me permettant de réaliser des graphiques. D’un autre côté, j’ai aussi apprécié la partie psychologie qui nous a appris à réaliser des graphes à la fois impactant et racontant ce que l’on veut dire. J’aurais apprécié réaliser le tutoriel Codecademy avec des jalons et plus proche du temporellement du projet, pour pouvoir mettre plus rapidement en oeuvre les compétences acquises.

V. Annexe

Pour la réalisation de ce projet, nous nous sommes réparties les taches de la manière suivante :

  • Tous les membres du groupe ont travaillé conjointement sur la rédaction de la proposition (Read.Me) et du powerpoint de la soutenance.
  • En ce qui concerne la partie exploration nous nous sommes répartis les questions de la manière suivante :
    • Youssef : 2. Quelle est la différence entre le basket d’aujourd’hui et celui d’autrefois ? 4. Les performances d’une équipe influencent elles l’affluence des fans dans l’arène?
    • Antoine : 1. Est que le MVP est forcément qualifié au playoff ou gagnant de cette compétition ? 8. Est-ce que la NBA se tourne de plus en plus vers le spectacle ?
    • Mohamed : 3. Existe-t-il une corrélation entre la moyenne d’âge d’une équipe et son classement dans la saison régulière ? 7. Est ce que les fautes ont un impact sur les performances de l’équipe ?
    • Thomas : 6. Y a-t-il une corrélation entre les performances individuelles des joueurs clés et le succès de l’équipe ? 5. A quel age les performances des joueurs commencent à décliner ?

Ainsi chaque membre du groupe devait traiter 2 questions, pour chaque question il devait réaliser une étude complète avec une introduction de la question, la réalisation des graphes, l’interprétation des graphes et enfin une conclusion avec la réponse finale à la question. On disposait d’un serveur Discord, où on échangeait entre nous si jamais il y a avait un problème technique ou si quelqu’un avait besoin d’aide